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Be s chr e ibung 

Verfahren zur rechzxergestutzten Spracherkexinung, 
Spracherkennungssystem uzid Steuereinrichtung zuxn Steuerzi 
eines technischen Systems und Telekoznmunikationsger&t 

Die Erfindung betrifft ein Verfahren zur rechnergestiitzten 
Spracherkennung , ein Spracherkennungssystem sowie eine 
Steuereinrichtung zum Steuern eines technischen Systems mit 
einem Spracherkennungssystem und ein Telekommunikationsgerat . 

Im Rahmen der rechnergestiitzten Spracherkennung wird ein von 
einem Benutzer eingesprochenes Sprachsignal im Rahmen der 
Vorverarbeitung digitalisiert und auf so genannte 
Merkmalsvektoren, die auch als Featurevektoren bezeichnet 
werden, abgebildet und fur die durchzufiihrende 
Spracherkennung gespei chert . 

Die Merkmalsvektoren weisen je nach Anwendung eine fest 
vorgegebene Anzahl von Merkmalsvektor-Komponenten auf, die 
tiblicherweise in dem Merkmalsvektor geordnet sind nach ihrer 
Bedeutung im Rahmen der Spracherkennung, ublicherweise 
geordnet nach Merkmalsvektor-Komponenten mit geringer 
werdendem Inf ormationsgehalt (kleiner werdender statistischer 
Varianz) . 

Insbesondere in einer Spracherkermungs anwendung in einem 
Embedded System ist jedoch die zur Verfugung stehende 
Rechenlei stung und der zur Verfugung stehende Speicherplatz 
knapp/ weshalb es in den derzeit bekannten 

Spracherkennungsanwendungen insbesondere aufgrund einer sehr 
hohen Anzahl von Merkmalsvektor-Komponenten, haufig zu 
Problemen kommt . 

In [1] ist ein Verfahren zum Berechnen von Abstanden zwischen 
einem Merkmalsvektor und mehreren Vergleichsvektoren 
beschrieben. Bei diesem Verfahren wird fiir die Komponenten 
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des Merkmalsvektors jeweils deren Diskriminierungsf ahigkeit 
ermittelt. Fur diejenigen Komponenten des Merkmalsvektors, 
deren Diskriminierungsf ahigkeit schlechter als ein 
vorgegebener Schwellenwert ist, wird ein erster Teilabstand 
5 zu einer Gruppe von Komponenten der Vergleichsvektoren 

ermittelt- Fur diejenigen Komponenten des Merkmalsvektors, 
deren Diskriminierungsf ahigkeit besser als der vorgegebene 
Schwellenwert ist, werden zweite Teilabstande zu den 
entsprechenden Komponenten der Vergleichsvektoren bestimmt. 
10 Aus dem ersten Teilabstand und den zweiten Teilabstanden 
werden die Abstande von dem Merkmalsvektor zu den mehreren 
Vergleichsvektoren ermittelt. 

Der Erfindung liegt das Problem zu Grunde, eine Moglichkeit 
15 zur rechnergestiitzten Spracherkennung sowie ein 

Spracherkennungs system anzugeben, bei der eine verringerte 
zur Verfiigung stehenden Rechenleistung oder ein reduzierter 
zur Verfugung stehenden Speicherplatz ausreicht. 

20 Das Problem wird durch das Verfahren zur rechnergestiitzten 

Spracherkennung, durch das Spracherkennungs system, durch die 
Steuereinrichtung sowie durch das Telekommunikationsgerat mit 
den Merkmalen gemaS den unabhangigen Patentanspriichen gelost. 

25 Bei einem Verfahren zur rechnergestiitzten Spracherkennung 

unter Verwendung von Merkmalsvektoren ist eine, vorzugsweise 
zu Beginn des Verfahrens, ezmittelte Erkennungsraten- 
Information gespeichert, mit der fur die Merkmalsvektoren 
abhangig von dem Inf ormationsgehalt der Merkmalsvektor- 

30 Komponenten angegeben wird, welche Spracherkennungsrate 
jeweils mit den Merkmalsvektoren mit den jeweils 
beriicksichtigten Merkmalsvektor-Komponenten erzielbar ist. 

In einem ersten Schritt wird fur eine 
35 Spracherkennungsanwendung ermittelt oder bestimmt, welche 
Spracherkennungsrate fiir die jeweilige 
Spracherkennungsanwendung benotigt wird. 
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Ferner ist in dem Spracherkennungs system ein Erkennungsraten- 
Informations-Speicher vorgesehen, in dem Erkennungsraten- 
Information gespeichert ist, mit der fur die Merkmalsvektoren 
abhangig von dem Inf ormationsgehalt der Merkmalsvektor- 
5 Komponenten angegeben wird, welche Spracherkennungsrate 
jeweils mit den Merkmalsvektoren mit den jeweils 
beriicksichtigten Merkmalsvektor-Komponenten erzielbar ist. 
Mittels einer ebenfalls vorgesehenen Erkennungsraten- 
Inf ormations-Ermittlungseinheit zum Ermitteln der 

10 Erkennungsraten- Information wird vor Durchfuhrung der 
eigentlichen Spracherkennung anhand vorzugsweise eines 
Trainingsdatensatzes die Erkennungsraten-Inf ormation 
ermittelt. Ferner ist eine Inf ormationsgehalt- 
Ermittlungseinheit vorgesehen zum Ermitteln des 

15 Inf ormationsgehalts fur Merkmalsvektor-Komponenten eines 
Merkmalsvektors in dem Spracherkennungssystem. Ferner ist 
eine Merkmalsvektor-Komponenten-Auswahleinheit zum Auswahlen 
von Merkmalsvektor-Komponenten, die im Rahmen der 
Spracherkennung zu beriicksichtigen sind, in dem 

20 Spracherkennungssystem vorgesehen. 

Eine Steuereinrichtung zum Steuern eines technischen Systems 
weist das oben beschriebene Spracherkennungssystem auf , wobei 
in dem elektronischen Worterbuch die zum Steuern des 
25 technischen Systems vorgesehenen Steuerbef ehle zur, 
vorzugsweise sprecherunabhangigen, Spracherkennung 
gespeichert sind. 

Anschaulich ist somit erf indungsgemSfi erstmals ermoglicht, 
30 die tatsachlichen anwendungsspezif ischen Anf orderungen an die 
Erkennungsrate im Rahmen der Auswahl von Merkmalsvektor- 
Komponenten von Merkmalsvektoren zur Spracherkennung flexibel 
zu beriicksichtigen, ohne dass fiir jede 

Spracherkennungsanwendung erneut eine Spracherkennungsrate 
35 ermittelt werden muss. 
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Auf diese Weise wird ein optimierter Kompromiss insbesondere 
hinsichtlich des zur Verfugung stehenden Speicherplatzbedarf s 
durch anwendungsabhangige Reduktion der Dimension der 
Merkmalsvektoren, anders ausgedriickt der Anzahl 
5 berucksichtigter Merkmalsvektor-Komponenten erreicht. Die 
Reduktion der Anzahl berucksichtigter Merkmalsvektor- 
Komponenten im Rahmen der Spracherkennung fiihrt zu einer 
erheblichen Reduktion der im Rahmen der Spracherkennung 
selbst benotigten Rechnerleistung . 

10 

Aus diesem Grund eignet sich die Erfindung insbesondere fur 
den Einsatz in einem Embedded System. 

Ferner wird eine erhebliche Einsparung an benotigter 

15 Rechenzeit erreicht, da fur eine neue 

Spracherkennungsanwendung lediglich die Anzahl erf orderlicher 
Merkmalsvektor-Komponenten aus der zuvor lediglich elninal 
ermittelten Erkennungsraten- Information bestimmt werden 
braucht und das Codebuch unmittelbar unter Verwendung der 

20 Merkmalsvektoren mit der bestimmten erf orderlichen Anzahl von 
Merkmalsvektor-Komponenten ermittelt werden kann, 

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
abhangigen Anspriichen. 

25 

Die im Folgenden beschriebenen Ausgestaltungen der Erfindung 
betreffen sowohl das Verfahren, das Spracherkennungs system 
als auch die Steuereinrichtung. 

30 Fur die Spracherkennung selbst wird vorzugsweise ein 
Spracherkennungsverf ahren zur sprecherunabhangigen 
Spracherkennung, besonders bevorzugt unter Verwendung von 
Hidden Markov Modellen durchgef uhrt . 



35 Alternativ konnen zur Spracherkennung, insbesondere zur 
sprecherunabhangigen Spracherkennung statistische 
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Klassif ikatoren, beispielsweise unter Verwendung kiinstlicher 
neuronaler Netze, eingesetzt werden. 

Allgemein kann jedoch erf indungsgemafi jedes beliebige 
5 Verfahren zur Spracherkennung eingesetzt werden. 

GemaS einer anderen Ausgestaltung der Erfindung ist es 
vorgesehen, dass die Merkmalsvektor-Komponenten mit relativ 
hohem Inf ormationsgehalt unter den Merkmalsvektor-Komponenten 
10 des jeweiligen Merkmalsvektors ausgewahlt werden und im 
Rahmen der Spracherkennung verwendet werden. 

Durch diese Ausgestaltung der Erfindung wird gewahrleistet , 
dass tatsachlich diejenigen Merkmalsvektor-Komponenten nicht 

15 berticksichtigt werden, die den geringsten Inf ormationsgehalt 
innerhalb aller Merkmalsvektor-Komponenten aufweisen, womit 
gewahrleistet wird, dass die verloren gegangene Information 
im Rahmen der Spracherkennung, die entsteht aufgrund der 
Nicht-Beriicksichtigung einer Merkmalsvektor-Komponenten, 

20 minimiert ist. 

Als Steuereinrichtung zum Steuern eines technischen Systems 
eignen sich beispielsweise eine Steuereinrichtung zum Steuern 
eines Telekommunikationsgerats , beispielsweise eines 

25 Telef ongerats , eines Telef axgerats , eines PDAs, eines 

Notebooks, etc., oder zum Steuern eines Endgerats, in dem 
mindestens zwei der oben beschriebenen Gerate- 
Funktionalitaten in einem gemeinsamen Gerat integriert sind. 
Insbesondere diese mit einem klar definierten und begrenzten 

30 Wortschatz zu steuernden Gerate konnen mittels eines 

Sprachdialogs gesteuert werden, der relativ ubersichtlich und 
somit selbst mittels eines Embedded Systems kostengiinstig 
realisierbar ist. 

35 Die anwendungsangepasste erhebliche Reduktion der Dimension 
verarbeiteter Merkmalsvektoren fiihrt zu einer erheblichen 
Zeiteinsparung im Rahmen der Entwicklung eines 
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Spracherkennungssystems , insbesondere wird das verwendete 
Codebuch erheblich reduziert, womit der Speicherplatzbedarf 
ebenfalls in erheblichem Mafie reduziert wird. 

5 Ein Ausfiihrungsbeispiel der Erfindung ist in den Figuren 
dargestellt und wird im Folgenden naher erlautert. 

Es zeigen 

10 Figur 1 ein Blockdiagramm eines Spracherkennungs systems gemaS 
einem Ausfiihrungsbeispiel der Erfindung; 

Figur 2 eine Skizze des Speichers des Rechners aus Figur 1 im 
Detail; 

15 

Figur 3 ein Blockdiagramm, in dem die einzelnen 
Verf ahrensschritte zum Bestimmen einer 
Erkennungsraten- Information gemafi einem 
Ausfiihrungsbeispiel der Erfindung dargestellt sind; 

Figur 4 ein Ablauf diagramm, in dem die einzelnen 
Verfahrensschritte zum Bestimmen einer 
Erkennungsraten- Information gemafe einem 
Ausfiihrungsbeispiel der Erfindung dargestellt sind; 

Figur 5 eine Skizze einer Erkennungsraten- Information gemafi 
einem Ausfiihrungsbeispiel der Erfindung; 

Figur 6 ein Ablauf diagramm, in dem die einzelnen 
30 Verfahrensschritte des Verfahrens zur Spracherkennung 

gemaS einem Ausfiihrungsbeispiel der Erfindung 
dargestellt sind. 



20 



25 



Fig.l zeigt ein Spracherkennungs system 100 gemaS einem 
35 Ausfiihrungsbeispiel der Erfindung. 
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Das Spracherkennungs system ICQ arbeitet je nach Betriebsiuodus 
in einem ersten Betriebsmodus als 
Spracherkennungseinrichtung, wobei in dem 
Spracherkennungsmodus eine eingesprochene Aufierung 101, 
5 eingesprochen von einem Benutzer (nicht dargestellt) des 
Spracherkennungs systems 100, von der 

Spracherkennungseinrichtung erkannt wird. Die Spracherkennung 
erfolgt unter Verwendung eines Verfahrens zur 
sprecherunabhangigen Spracherkennung . 

10 

In einem zweiten Betriebsmodus, im Weiteren auch bezeichnet 
als Trainingsmodus, wird unter Verwendung einer 
eingesprochenen AuSerung 101, wie im Weiteren naher erlautert 
wird, das Spracherkennungs system 100 trainiert, gemaS diesem 
15 Ausfiihrungsbei spiel bedeutet dies, dass einzelne Hidden 

Markov Modelle fur eine AuSerung mittels der eingesprochenen 
AuSerung 101 trainiert werden. 

In beiden Betriebsmodi wird das von dem Benutzer 
20 eingesprochene Sprachsignal 101 einem Mikrofon 102 zugefiihrt 
und als auf genommenes elektrisches Analogsignal 103 einer 
Vorverstarkung mittels einer Vorverstarkungseinheit 104 
unterzogen und als verstarktes Analogsignal 105 einem Analog- 
/Digitalwandler 106 zugefiihrt, dort in ein digitales Signal 
25 107 umgewandelt und als digitales Signal 107 einer 

Merkmalsextraktionseinheit 108 zugefuhrt, welche das digitale 
Signal 107 einer Spektraltransf ormation unterzieht und zu dem 
digitalen Signal 107 zu einer AuSerung eine Folge von 
Merkmalsvektoren 109 bildet, welche das digitale Signal 107 
30 reprasentieren . 

Jeder Merkmalsvektor 109 weist eine vorgegebene Anzahl von 
Merkmalsvektor-Komponenten auf. 

35 GemaS diesem Aus fuhrungsbei spiel weisen die Merkmalsvektoren 
jeweils 78 Merkmalsvektor-Komponenten auf. 
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Die Mer]analsvektoren 109 werden einem Rechner 110 zugefiihrt. 

Es ist in diesem Zusaitimenhang anzumerken, dass das Mikrofon 
102, die Vorverstarkungseinheit 104, insbesondere die 
5 Verstarkungseinheit, und der Analog- /Digitalwandler 106 sowie 
die Merkmalsextraktionseinheit 108 als separate Einheiten 
Oder auch als in dem Rechner 110 integrierte Einheiten 
realisiert sein konnen. 

10 GemaS diesem Aus fiihrungsbei spiel der Erfindung ist es 

vorgesehen, dass die Merkmalsvektoren 109 dem Rechner 110 
liber dessen Eingangsschnittstelle 111 zugefiihrt werden. 

Der Rechner 110 weist ferner einen Mikroprozessor 112, einen 
15 Speicher 113 sowie eine Ausgangsschnittstelle 114 auf , welche 
alle miteinander mittels eines Computerbus 115 gekoppelt 
sind. 

Mittels des Mikroprozessors 112 werden die im Folgenden 
20 beschriebenen Verf ahrensschritte, insbesondere die Verfahren 
zum Ermitteln der im Folgenden erlauterten Erkennungsra ten- 
Information sowie die Verfahren zur Spracherkennung 
durchgef iihrt . 

25 In einem im Folgenden naher erlauterten elektronischen 

Worterbuch, welcher im Speicher 113 gespeichert ist, sind die 
Eintrage in Form trainierter Hidden Markov Modelle enthalten, 
die im Rahmen der Spracherkennung als Ref erenzworter , die 
iiberhaupt nur von dem Spracherkennungsalgorithmus uberhaupt 

30 erkannt werden konnen, enthalten sind. 

Alternativ kann zusatzlich ein digitaler Signalprozessor 
vorgesehen sein, der die jeweils eingesetzten 
Spracherkennungsalgorithmen implementiert hat und einen 
35 darauf spezialisierten Mikrocontroller aufweisen kann. 
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In einem sechsten Speicherteilbereich 2 06 ist ferner eine im 
Weiteren naher erlauterte Tabelle gespeichert, in der fiir 
eine oder mehrere Anwendungen des Spracherkennungssystems 
5 eine Angabe dariiber gespeichert ist, welche Erkennungsrate 
fiir die jeweilige Anwendung benotigt wird. 

Es ist in diesem Zusammenhang darauf hinzuweisen, dass die 
einzelnen Elemente in unterschiedlichen Speicherbereichen 
10 desselben Speichers 113 gespeichert sein konnen, jedoch auch 
in unterschiedlichen, vorzugsweise an die jeweiligen 
Anf orderungen der gespeicherten Elemente ahgepassten 
Speichern. 

15 Fig .3 und Fig .4 zeigen in einem Blockdiagramm 3 00 

(vgl. Fig. 3) bzw. in einem Ablauf diagramm (vgl. Fig. 4) die 
einzelnen von dem Rechner 110 durchgefiihrten 
Verfahrensschritte des Verfahrens ziim Ermitteln der in dem 
fiinften Speicherteilbereich 205 gespeicherten 

20 Erkennungsraten- Information. 

Nach Starten des Verfahrens (Schritt 401) werden in einem 
Trainingsschritt die einzelnen Hidden Markov Modelle unter 
Verwendung des in dem zweiten Teilspeicherbereich 202 
25 gespeicherten Trainingsdatensatzes trainiert- 

Das Training der Hidden Markov Modelle erfolgt gemaS diesem 
Ausfiihrungsbei spiel in drei Phasen: 

• einer erste Phase (Schritt 402), in der die in der 
30 Trainings-Datenbank enthaltenen Sprachsignale 301 

segmentiert werden mittels einer Segmentierungseinheit 
302, 

• einer zweiten Phase (Schritt 403), in der die LDA-Matrix 
(lineare Diskriminanzanalyse-Matrix) berechnet wird 

35 sowie 

• einer dritten Phase (Schritt 405), in der das Codebuch, 
das heiJSt die HMM-Prototypen-Merkmalsvektoren fiir 
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jeweils eine in einem Auswahlschritt (Schritt 404) 
ausgewahlte Anzahl von Merkmalsvektor-Komponenten 
berechnet werden. 

5 Die Gesamtheit dieser drei Phasen wird im Weiteren als das 

Training der Hidden Markov Modelle bezeichnet (HMM-Training) . 

Das HMM-Training wird unter Verwendung des DSPs 123 sowie 
unter Verwendung von vorgegebenen Trainingskripts, 
10 anschaulich von geeignet eingerichteten Computerprogrammen, 
durchgef lihrt . 

GemalS diesem Ausfiihrungsbei spiel wird jede gebildete 
lautsprachliche Einheit, das heiSt jedes Phonem, in drei 
15 aufeinander folgende Phonemsegmente aufgeteilt, entsprechend 
einer Initial-Phase (erstes Phonemsegment ) , einer zentralen 
Phase (zweites Phonemsegment) und einer Endphase (drittes 
Phonemsegment) eines Lauts, das heiiSt eines Phonems. 

20 Anders ausgedrtickt wird jeder Laut in einem Lautmodell mit 
drei Zustanden, das heiSt mit einem Drei-Zustands-HMM 
modelliert . 

Wahrend der Spracherkennung warden die drei Phonemsegmente in 
25 einer Bakis-Topologie oder allgemein einer Links-Rechts- 

Topologie aneinander gereiht und auf die Konkatenation dieser 
drei aneinander gereihten Segmente wird die Berechnung im 
Rahmen der sprecherunabhangigen Spracherkennung durchgef iihrt . 

3 0 Wie im Weiteren noch naher erlautert wird, wird in dem 

Spracherkennungsmodus ein Viterbi-Algorithmus zura Dekodieren 
der Merkmalsvektoren, welche aus dem eingegebenen 
Sprachsignal 101 gebildet werden, durchgef iihrt . 

35 Nach erfolgter Segment ierung wird die LDA-Matrix 3 04 

(Schritt 403) mittels einer LDA-Matrix-Berechnungseinheit 303 
ermittelt . 
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Die LDA-Matrix 3 04 dient zur Transformation eines jewel ligen 
Super-Merkmalsvektors y auf einen Merkmalsvektor x gemafi 

folgender Vorschrift: 

5 

X = a'^ • t - y)' 
wobei mit 

10 • X ein Merkmalsvektor, 

• A eine LDA-Matrix, 

• y ein Super-Merkmalsvektor , 

• y ein globaler Verschiebungsvektor 

15 bezeichnet wird. 

Die LDA-Matrix A wird derart bestimmt, dass 

• die Komponenten des Merkmalsvektor s x im statistischen 
Durchschnitt voneinander im Wesentlichen unkorreliert 

20 sind, 

• die statistischen Varianzen innerhalb einer 
Segmentklasse im statistischen Durchschnitt normalisiert 
sind, 

• die Zentren der Segmentklassen im statistischen 
25 Durchschnitt einen maximalen Abstand voneinander 

aufweisen und 

• die Dimension der Merkmalsvektor en x moglichst, 
vorzugsweise Spracherkennungsanwendungs-abhangig, 
reduziert wird. 

30 

Im Folgenden wird das Verfahren zum Bestimmen der LDA-Matrix 
A gemaS diesen Ausfuhrungsbeispielen erlautert. 

Es ist jedoch anzumerken, dass alternativ alle bekannten 
35 Verfahren zum Bestimmen einer LDA-Matrix A ohne Einschrankung 
eingesetzt werden kann. 
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Es wird angenommen , dass J Segmentklassen existieren, wobei 
jede Segmentklasse j einen Satz Dy-dimensionaler Super- 
Merkmalsvektoren y enthalt, das heiiSt, dass gilt: 



12 1 



Klasse j = -^y 



wobei mit Nj die Anzahl der in der Klasse j sich befindenden 
Super-Merkmalsvektoren yj bezeichnet wird. 



10 Mit 



J 

N = S^j (3) 
j=l 

wird die Gesamtzahl der Super-Merkmalsvektoren y bezeichnet. 



Es ist anzumerken, dass die Super-Merkmalsvektoren y^ unter 

Verwendung der oben beschriebenen Segmentierung der 
Sprachsignal-Datenbank ermittelt worden sind. 



20 GemaS diesem Aus fiihrungsbei spiel weist jeder Super- 



Merkmalsvektor y^ eine Dimension Dy von 



Dy = 78 (= 2 • 3 • 13) 



25 auf, wobei 13 MFCC-Koef f izienten (Cepstrums-Koef f izienten) in 
dem Super-Merkmalsvektor y^ enthalten sind, sowie deren 

jewel lige zeitliche erste Ableitung und deren jeweilige 
zeitliche zweite Ableitung (dies begriindet obigen Faktor 3) . 

30 Ferner sind in jedem Super-Merkmalsvektor y^ jewel Is die 

Komponenten zweier zeitlich unmittelbar auf einanderf olgender 
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Zeitfenster im Rahmen der Kurzzeitanalyse enthalten (dies 
begriindet obigen Faktor 2) . 

Es ist in diesem Zusammenhang anzumerken, dass grundsatzlich 



enthalten sein kann, beispielsweise bis zu 20 Cepstriims- 
Koef f izienten und deren zugehorigen zeitlichen erste 
Ableitungen und zweite Ableitungen. 

Der statistische Mittelwert oder anders ausgedriickt das 
Zentrum der Klasse j ergibt sich gemaS folgender Vorschrift: 



Die Kovarianzmatrix 2j der Klasse j ergibt sich gemaS 
folgender Vorschrift: 



Die Durchschnitts-Intra-Streumatrix S^^^ ist definiert als: 



eine beliebige, an die jewel lige Anwendung angepasste Zahl 

von Vektorkomponenten in dem Super-Merkmalsvektor v^ 

"J 




(4) 



(5) 



(6) 



j=l 



mit 




(7) 



wobei p(j) als Gewichtungs faktor der Klasse j bezeichnet 
wird. 
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In analoger Weise ist die Durchschnitts-Inter-Streumatrix 
definiert als: 




mit 

_ J _ 

y = Z M ' Yj (9) 
j = l 

als dem Durchschnitts-Super-Merkmalsvektor iiber alle Klassen. 
Die LDA-Matrix A wird zerlegt gemaS folgender Vorschrift: 
A = U • W • y , (10) 
wobei mit 

• U eine erste Trans formationsmatrix, 

• W eine zweite Trans forma tionsmatrix und 

• V eine dritte Transforma tionsmatrix 

bezeichnet wird. 

Die erste Transf ormationsmatrix U wird verwendet, um die 
Durchschnitts-Intra-Streumatrix S^^ zu diagonalisieren und 
wird ermittelt, indem die positiv definite und symmetrische 
Durchschnitts-lntra-Streumatrix in ihren Eigenvektorraum 
transf ormiert wird. In ihrem Eigenvektorraum ist die 
Durchschnitts-Intra-Streumatrix eine Diagonal -Matrix, 
deren Komponenten positiv und grofier oder gleich null sind. 
Die Komponenten, deren Werte grofier null sind, entsprechen 
der Durchschnitts-Varianz in der jeweiligen durch die 
entsprechende Vektorkomponente definierten Dimension. 
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Die zweite Trans format ionsmatrix W wird zum Normal i si eren der 
Durchschnitts-Varianzen verwendet und wird ermittelt gemaJS 
folgender Vorschrift: 

5 

W = • • \jf2 . (11) 
Die Transformation U • W wird auch als WeiSung bezeichnet. 
10 Mit 

B = U • W (12) 

ergibt sich fur die Matrix B*^ • • B die Einheitsmatrix, 

15 welche bei jeder beliebigen orthonormalen 
Lineartransf ormation unverandert bleibt. 

Um die Durchschnitts-Inter-Streumatrix zu diagonalisieren 
wird die dritte Transf ormationsmatrix V, die gebildet wird 
20 gemaS folgender Vorschrift: 

V = B*^ . • B, (13) 

wobei B*^ • S]^ • B ebenfalls eine positiv definite und 

25 syitimetrische Matrix darstellt, in ihren Eigenvektorraum 
transf ormiert wird. 

In dem Transf ormationsraum 

30 X = A*^ • t ~ 3 (1^) 
ergeben sich somit folgende Matrizen: 

Eine diagonalisierte Durchschnitts-Intra-Streumatrix S^y^: 

35 
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(15) 



und eine diagonalisierte Durchschnitts-Inter-Streiimatrix Sfc: 



'd=l...Dy ' 



(16) 



wobei mit diag(c^) 



'd=l...Dy 



eine Dy x Dy Diagonalmatrix mit den 



Komponenten in der Zeile/Spalte d und sonst mit 
Komponenten mit dem Wert Null, bezeichnet wird. 

2 

Die Werte sind die Eigenwerte der Durchschnitts-Inter- 
StreTimatrix Sb und stellen ein MaS fiir die so genannte 
Pseudoentropie der Merkmalsvektor-Komponenten dar, welche im 
Folgenden auch als Inf ormationsgehalt der Merkmalsvektor- 
Komponenten bezeichnet wird. Es ist anzumerken, dass die Spur 
jeder Matrix invariant ist beziiglich irgendeiner 
Orthogonaltransformation, womit sich ergibt, dass die Summe 



die Gesamt-Durchschnitts-Varianz des Durchschnitts-Vektors xj 
der J Klassen darstellt. 

Es ergibt sich somit eine ermittelte Anhangigkeit der 
Pseudoentropie der Merkmalsvektoren von den jeweils in dem 
Merkmalsvektor enthaltenen bzw. beriicksichtigten 
Merkmalsvektor-Komponenten . 

GemaS diesem Ausfuhrungsbeispiel wird anschliegend eine 
Dimensionsreduktion vorgenommen, indem die -Werte in in 

ihrer GroSe abfallender Reihenfolge sortiert werden und die 
2 

-Werte weggelassen werden, das heiSt unberiicksichtigt 
bleiben, die kleiner sind als ein vorgegebener Schwellwert. 




(17) 



d = l 
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Der vorgegebene Schwellwert kann ferner kumulativ definiert 
sein. 

Dann kann die LDA-Matrix A angepasst warden, indem die 
Zeilen entsprechend den Eigenwerten sortiert werden und 
die Zeilen weggelassen werden, die zu den ausreichend 
„kleinen'' Varianzen gehoren und damit nur einen geringen 
Informationsgehalt (geringe Pseudoentropie) aufweisen. 

Gemafi diesem Ausf iihrungsbeispiel werden die Komponenten mit 
den 24 groSten Eigenwerten verwendet, anders ausgedriickt 
Dx = 24. 



Die vier oben beschriebenen Teilschritte zum Ermitteln der 
LDA-Matrix A 3 04 (Schritt 403) sind in folgender Tabelle 
zusainmengef asst : 



Nummer 
Ver f ahr ens s chr i 1 1 


Ziel 


Ver f ahr en 


1 


Dekorrelieren der 
Merkma Is vek tor kompo- 
nenten 


Diagonalisieren 
der Durchschnitts- 
Intra-Klassen- 
Ko.varianzmatrix 


2 


Normal isieren der 
statist ischen 
Varianzen innerhalb 
einer Klasse 


Bestimmen der 
inversen 

Quadratwurzel der 

trans formier ten 

Durchschnitts- 

Intra-Klassen- 

Kovarianzmatrix 
T 
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3 


Maximieren der 
Klassenzentren 


Di agona 1 i s i er en 
der 

ux diis t onrii er uen 

Durchschnitts- 

Inter-Klassen- 

Kovarianzmatrix 
T 

B -Sb-B 


4 


Reduzieren der 
Dimensionen der 
Merkmalsvektoren 


Auswahlen der 
Zeilen der M^i'hr'i 
A mit den 24 
grofiten 

Eigenwerten von 
T 

A -Sb-A 



Das letzte Verfahren zum Teil-Verf ahren im Rahmen des 
Trainings der Hidden Markov Modelle ist das Clustern der 
Merkmalsvektoren (Schritt 405), welches mittels einer 
5 Clustereinheit 305 durchgefiihrt wird und welches als Ergebnis 
ein jeweiliges Codebuch 306 hat, jeweils spezifisch fiir einen 
Trainingsdatensatz mit einer vorgegebenen Anzahl von 
Merkmalsvektor-Komponenten . 

10 Die Gesamtheit der Reprasentanten der Segmentklassen wird als 
Codebuch bezeichnet und die Reprasentanten selbst werden auch 
als Prototypen der Phonemsegmentklasse bezeichnet. 

Die Prototypen, im Weiteren auch als Prototyp- 
15 Merkmalsvektoren bezeichnet, werden gemaS dem in [1] 
beschriebenen Baiim-Welch-Training ermittelt. 

Somit sind die Basiseintrage des elektronischen Worterbuches, 
das heiSt die Basiseintrage zur sprecherunabhangigen 
2 0 Spracherkennung erstellt und gespeichert und die 
entsprechenden Hidden Markov Modelle trainiert. 

Somit existiert fiir jeden Basiseintrag jeweils ein Hidden 
Markov Modell, womit das Codebuch 306 fur den 
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Trainingsdatensatz mit der ausgewahlten Anzahl von 
Merkmalsvektor-Komponenten in den Merkmalsvektoren in dem 
Trainingsdatensatz . 

5 Nach erfolgtem Training der Hidden Markov Modelle liegen 

nunmehr die trainierten Hidden Markov Modelle in dem vierten 
Speicherteilbereich 204 vor. 

In einem anschlieSenden Verf ahrensschritt (Schritt 406) wird 
10 fiir die in dem Testdatensatz, welcher in dem dritten 

Teilspeicherbereich 203 gespeichert ist, die Erkennungsrate 
fiir die jeweiligen Merkmalsvektoren der aktuellen Dimension, 
das heiSt fiir die Merkmalsvektoren mit der jeweils aktuellen 
Anzahl von Merkmalsvektor-Komponenten, ermittelt. 

15 

Dies erfolgt gemafi diesem Aus fiihrungsbei spiel dadurch, dass 
fiir alle SprachauSerungen, das heilSt fiir alle Folgen von 
Merkmalsvektoren in dem Testdatensatz eine Spracherkennung 
mittels der trainierten Hidden Markov Modelle, anders 
20 ausgedrtickt mittels einer Spracherkennungseinheit 307, 

durchgefiihrt wird und die Spracherkennungsergebnisse mit den 
Soll-Ergebnissen des Testdatensatzes verglichen werden. 

Die ermittelte Erkennungsrate 308 ergibt sich aus dem 
25 Verhaltnis der Anzahl korrekter Erkennungsergebnisse, anders 
ausgedriickt aus der Anzahl von Ubereinstimmungen zwischen dem 
Spracherkennungsergebnis und dem Soll-Ergebnis, welches in 
dem Testdatensatz angegeben ist, und der insgesamt zur 
Spracherkennung dargestellten Testdatensatze . 

30 

In einem nachf olgenden Schritt (Schritt 304) wird die 
ermittelte Erkennungsrate gemeinsam mit der Angabe, wie viele 
Merkmalsvektor-Komponenten zur Bestimmung der Erkennungsrate 
308 fiir die Merkmalsvektoren des Testdatensatzes 203 
35 verwendet worden sind, gespeichert. 
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AnschlieSend wird in einem Priifschritt 407 uberpriift, ob das 
Verfahren beendet werden soil. 

1st dies der Fall, so wird das Verfahren beendet 
5 (Schritt 408) . 

Soil das Verfahren noch nicht beendet werden, so wird die 
Anzahl der Merkmalsvektor-Komponenten der Merkiualsvektoren 
109, die im Rahmen der Ermittlung der Erkennungsrate aus dem 
10 Testdatensatz verwendet werden, um einen vorgegebenen Wert, 
vorzugsweise um den Wert „1'\ das heiSt um eine 
Merkmalsvektor-Komponente reduziert (Schritt 409) . 

AnschlieSend werden die Schritte des Clusterns (Schritt 405) 
15 und somit des Erstellens des jeweiligen Codebuchs 306 und des 
Bestimmens der Spracherkennungsrate (Schritt 406) erneut 
durchgefuhrt , nunmehr jedoch fiir Merkmalsvektoren des 
Testdatensatzes mit jeweils um eine Merkmalsvektor-Komponente 
reduziertem Merkmalsvektoren. 

20 

Anders ausgedrtickt bedeutet dies, dass bei 78 Merkmalsvektor- 
Komponenten in einem liblichen Merkmalsvektor gemaS diesem 
Ausfiihrungsbeispiel der Erfindung in der zweiten Iteration 
die Erkennungsrate fiir einen Merkmalsvektor mit 77 
25 Merkmalsvektor-Komponenten durchgefuhrt wird, in der. dritten 
Iteration mit 76 Merkmalsvektor-Komponenten, usw. 

GemaJS einer alternativen Ausgestaltung der Erfindung ist es 
vorgesehen, unmittelbar nicht mit alien Merkmalsvektor- 
30 Komponenten des Super -Merkmalsvektor s (d.h. nicht mit alien 

78 Merkmalsvektor-Komponenten) , zu beginnen, sondern schon zu 
Beginn eine um einen anwendungsabhangigen Wert reduzierte 
Anzahl von Merkmalsvektor-Komponenten. 



35 Femer kann in jeder Iteration die Anzahl von Merkmalsvektor- 
Komponenten um mehr als um den Wert „1'' reduziert werden. 
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Somit liegen als Ergebnis diese oben beschriebenen Verfahrens 
einerseits eine Pseudoentropie-Abbildung und andererseits 
eine Erkennungsraten-Abbildung vor. 

5 Mit der Pseudoentropie-Abbildung wird eine Abhangigkeit der 
Pseudoentropie der Merkmalsvektoren von den beriicksichtigten 
Merkmalsvektor-Komponenten angegeben, also eine Abhangigkeit 
des Inf ormationsgehalts, auch als Inf ormationsmaS bezeichnet, 
von den beriicksichtigten Merkmalsvektor-Komponenten. 

10 

Mit der Erkennungsraten-Abbildung wird eine Abhangigkeit der 
Spracherkennungsrate der Merkmalsvektoren von den 
beriicksichtigten Merkmalsvektor-Komponenten angegeben. 

15 Aus der Pseudoentropie-Abbildung und der Erkennungsraten- 
Abbildung wird die Erkennungsraten- Information gebildet, 
indem eine Abhangigkeit der Spracherkennungsrate von der 
Pseudoentropie ermittelt wird unter Verwendung der jeweiligen 
beriicksichtigten Merkmalsvektor-Komponenten. Es ist 

20 anzumerken, dass die Erkennungsraten-Inf ormation nunmehr 
unabhangig ist von der Anzahl der beriicksichtigten 
Merkmalsvektor-Komponenten . 

Die Erkennungsraten-Inf ormation wird in dem fiinften 
25 Teilspeicherbereich 205 gespeichert. 

Ergebnis dieses Verfahrens ist somit die in Fig .5 in einem 
Funktionsdiagramm dargestellte Erkennungsraten-Inf ormation 
500, die iiber einer ersten Achse, auf der die ermittelte 
30 Pseudoentropie 501 aufgetragen ist, die erreichte 

Erkennungsrate 502 in Form von Daten-Tupeln 503 angibt. 

Die Erkennungsraten-Inf ormation 500 stellt somit den 
Zusammenhang dar zwischen der Pseudoentropie und der mittels 
35 des Spracherkennungs systems erzielbaren Erkennungsrate. 
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Es ist in diesem Zusammenhang darauf hinzuweisen, dass die 
Erkennungsraten-Inf ormation 500 nur einmal ftir jedes 
Spracherkennungs system, das heiSt fiir jeden trainierten Satz 
von Hidden Markov Modellen durchgefiihrt werden muss. 

Fig. 6 zeigt in einem Ablauf diagramm 600 die einzelnen 

Verf ahrensschritte des Verfahrens zur Spracherkennung gemaS 

dam Ausfiihrungsbei spiel der Erfindung. 



10 Nach Starten des Verfahrens (Schritt 601) wird die 

Spracherkennungsanwendung ausgewahlt oder bestimmt, in deren 
Rahmen die Spracherkennung durchgefiihrt werden soli 
(Schritt 602) . 



15 Als mogliche Anwendungen fiir die Spracherkennung sind gemaS 
diesem Ausfuhrungsbeispiel folgende 
Spracherkennungsapplikationen vorgesehen : 

• ein Sprachdialogsystem: 

fiir ein Sprachdialogsystem mit einer 
20 Spracherkennungsrate von 92 - 93 % zu gewahrleisten; 

• ein Fahrzeug-Navigationssystem: 

fiir diese Spracherkennungsapplikation ist eine 
Spracherkennungsrate von ungefahr 95 % zu gewahrleisten; 

• eine Steuerung eines technischen Systems, gemafi dem 
25 Ausfiihrungsbeispiel eines Videorekorders : 

fiir diese Spracherkennungsapplikation ist eine 
Spracherkennung von ungefahr 95 % zu gewahrleisten; 

• eine Telef on-Anwendung: 

fiir diese Anwendung ist eine Spracherkennungsrate von 
30 95 % zu gewahrleisten; 

• ein Diktat/ anders ausgedriickt das Erkennen von 
Sprachinf ormation und Umsetzen des erkannten 
Sprachsignals in ein Textverarbeitungssystem: 
fiir diese Applikation ist die mit dem 

35 Spracherkennungs system maximal erreichbare 

Spracherkennungsrate erf orderlich, das heiSt in diesem 
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Fall ist keine Reduktion von Merkmalsvektor-Komponenten 
sinnvoll . 

Fur die jeweilige Spracherkennungsanwendung erfolgt unter 
5 einem ebenfalls in dem zweiten Speicherteilbereich 202 
gespeicherten , vorzugsweise Spracherkennungsanwendungs- 
abhangigen Trainingsdatensatz eine Segmentierung der Super- 
Merkmalsvektoren (Schritt 603) in der gleichen, oben 
beschriebenen Weise. 

10 

Anschliefiend wird, ebenfalls in der gleichen, oben 
beschriebenen Weise eine LDA-Berechnung durchgefiihrt 
(Schritt 604), womit eine Spracherkennungsanwendungs- 
abhangige LDA-Matrix 605 ermittelt wird. 

15 

Unter Verwendung der Spracherkennungsanwendungs-abhangigen 
LDA-Matrix 605 wird eine Spracherkennungsanwendungs-abhangige 
Pseudoentropie-Abbildung ermittelt, die einen Zusammenhang 
darstellt zwischen der erreichbaren Pseudoentropie und der 
20 jeweils berucksichtigten Anzahl von Merlanalsvektor- 
Komponenten in den Merkmalsvektoren. 

Die jeweilige Spracherkennungsanwendungs-abhangige 
Pseudoentropie-Abbildung wird in dem sechsten 
25 Speicherteilbereich 206 gespeichert. 

Unter Verwendung der zuvor ermittelten benotigten 
Spracherkennungsrate und der in dem sechsten 
Speicherteilbereich 206 gespeicherten Erkennungsraten- 
30 Information wird fiir die ausgewahlte Anwendung in einem 
zusatzlichen Schritt die erf orderliche Pseudoentropie 
ermittelt (Schritt 606) . 

Unter Verwendung der Spracherkennungsanwendungs-abhangigen 
35 Pseudoentropie-Abbildung, wie sie zuvor ermittelt worden ist, 
wird in einem anschlieSenden Schritt (Schritt 607) ermittelt, 
wie viele Merkmalsvektor-Komponenten und welche 
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Merkmalsvektor-Komponenten, gemaS diesem Ausfuhrungsbei spiel 
die jeweils die Merkmalsvektor-Komponenten mit jeweils 
kleinstem Inf ormationsgehalt , im Rahman der Spracherkennung 
weggelassen warden konnan, anders ausgedriickt 
5 unberiicksichtigt bleiben konnen. 

1st in dem Schritt 607 nunmehr die Anzahl benotigter 
Merkmalsvektor-Komponenten fiir die ausgewShlte Anwendung 
ermittelt, so wird in einem nachf olgenden Schritt fiir die 

10 jeweilige Anwendung und fiir die bestimmte Anzahl von 

Merkmalsvektor-Komponenten ein Clustering durchgefiihrt 
(Schritt 608) . Ergebnis des Clusterings ist ein 
Spracherkennungsanwendungs-abhangiges Codebuch 609, anders 
ausgedriickt eine Menge Spracherkennungsanwendungs-abhangiger 

15 trainierter Hidden Markov Modelle, welches ebenfalls in dem 
Speicher gespeichert wird. Das Clusterverf ahren ist gleich 
dem oben beschriebenen Clusterverf ahren {Schritt 405) zum 
Bestimmen der Erkennungsraten- Information 500. 

2 0 AnschlieSend arfolgt die sprecherunabhangige Spracherkennung 
unter Verwendung des gaspeichertan 

Spracherkennungsanwendungs-abhangigen Codebuchs 609 
(Schritt 610) . 

25 Anders ausgedriickt bedeutet dies, dass eine anschlieSend 

eingesprochene AuSerung eines Benutzers unter Verwendung der 
Hidden Markov Modelle gemafi dem [1] beschriebenen Verf ahren 
zur sprecherunabhangigen Spracherkennung unter Verwendung des 
Viterbi-Algorithmus durchgefiihrt wird (Schritt 610) . 

30 

Wie zuvor beschrieben werden im Rahmen der Spracherkennung 
die reduzierten Merkmalsvektoren beriicksichtigt , das heiSt 
die Merkmalsvektoren ohne die nicht beriicksichtigten 
Merkmalsvektor-Komponenten . 

35 

Anders ausgedriickt bedeutet dies, dass bei k Merkmalsvektor- 
Komponenten in einem Merkmalsvektor und bei n nicht 
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berucksichtigten Merkmalsvektor-Komponenten (n < k) lediglich 
(k - n) Merkmalsvektor-Komponenten im Rahmen der 
Spracherkennung berucksichtigt werden miissen. 

5 Somit findet auch der Vergleich in einem Vergleichsraum der 
Dimension (k - n) statt. 

Ferner wird erf indungsgemaS die Erkennungsraten- Information 
nur einmal bestimmt; ftir jede neue Spracherkennungsanwendung 

10 ist es lediglich erf orderlich, unter Verwendung der 

Erkennungsraten- Information 500 zu ermitteln, wie viele und 
vorzugsweise welche Merkmalsvektor-Komponenten fiir die neue 
Spracherkennungsanwendung erf order lich sind, und das Codebuch 
fur die ermittelte Anzahl benotigter Merkmalsvektor- 

15 Komponenten zu bestimmen. 

Fig. 5 zeigt das Beispiel, dass fiir die ausgewahlte Anwendung 
eine Spracherkennung s rate von 95 % benotigt wird, in Fig. 5 
dargestellt mittels einer Schnittlinie 504. 

20 

Oberhalb der Schnittlinie befindende Datenpunkte 
reprasentieren eine Pseudoentropie, die groSer ist als es 
eigentlich erforderlich ware fur die Anforderung der 
ausgewahlten Anwendung, anders ausgedriickt, um eine 
25 Erkennungsrate von 95 % zu gewahrleisten . 

GemaS diesem Ausfiihrungsbei spiel konnen zwei Merkmalsvektor- 
Komponenten weggelassen werden, womit die Dimension der 
verarbeiteten Merkmalsvektoren um den Wert 2 reduziert werden 
30 konnte. 

Anschaulich kann die Erfindung darin gesehen werden, dass fiir 
eine spezielle ausgewahlte Spracherkennungsanwendung, 
beispielsweise aus dem Bereich Command and Control, anders 
35 ausgedriickt fiir eine Steuereinrichtung, unter bestimmten 
Bedingungen eine geringere Erkennrate des Spracherkenners 
akzeptiert werden kann und diese Erkenntnis erf indungsgemaS 
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umgesetzt wird in ein Reduzieren der Dimension der 
verarbeiteten Merkmalsvektoren. 

Nach erfolgter Spracherkennung in Schritt 610 wird das 
5 Verfahren beendet (Schritt 611) . 
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In diesem Dokument ist folgende Verof f entlichung zitiert: 

[1] E.G. Schukat-Talamazzini , Automatische Spracherkennung, 
Grundlagen, statistische Modelle und effiziente 
5 Algorithmen, Vieweg Verlag, ISBN 3-528-05492-1, 

Seite 121 - 164, 1995 



[2] DE 199 39 101 Al 
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Pat exit anspriiche 

1. Verfahren zur rechnergestiitzten Spracherkennung unter 
Verwendung von Merkmalsvektoren, wobei eine Erkennungsra ten- 
Information gespeichert ist, mit der fiir die Merkmalsvektoren 
abhangig von dem Inf ormationsgehalt der Merkmalsvektor- 
Komponenten angegeben wird, welche Spracherkennungsrate 
jewel Is mit den Merkmalsvektoren mit den jewel Is 
beriicksichtlgten Merkmalsvektor-Komponenten erzielbar ist, 

• bei dem bestimmt wird, welche Spracherkennungsrate fiir 
eine Spracherkennungsanwendung benotigt wird, 

• bei dem unter Verwendung der Erkennungsraten- Information 
ermittelt wird, welcher Inf ormationsgehalt der 
Merkmalsvektor-Komponenten mindestens erforderlich ist, 
um die bestimmte Spracherkennungsrate zu gewahrleisten, 

• bei dem ermittelt wird, wie viele Merkmalsvektor- 
Komponenten in dem Spracherkennungs system fiir die 
Spracherkennungsanwendung erforderlich sind, um den 
ermittelten Inf ormationsgehalt bereitzustellen, 

• bei dem die Spracherkennung ausgefuhrt wird unter 
Verwendung von Merkmalsvektoren mit der Anzahl von 
Merkmalsvektor-Komponenten, die erforderlich sind, um 
den ermittelten Inf ormationsgehalt bereitzustellen . 

2. Verfahren gemaS Anspruch 1, 

bei dem fiir die Spracherkennung ein sprecherunabhangiges 
Spracherkennungsverfahren verwendet wird. 

3 . Verfahren gemaS Anspruch 2 , 

bei dem die Spracherkennung unter Verwendung von Hidden 
Markov Modellen durchgefiihrt wird. 

4. Verfahren gemaS einem der Anspriiche 1 bis 3, 

bei dem die Merkmalsvektor-Komponenten mit hochstem 
Informationsgehalt ausgewahlt werden und im Rahmen der 
Spracherkennung verwendet werden. 
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5. Spracherkennungs system mit 

• einer Spracherkennungseinheit , 

• einem mit der Spracherkennungseinheit gekoppelten 
elektronischen Worterbuch, in dem die im Rahmen der 
Spracherkennung berticksichtigten Worter gespeichert 
sind, 

• einem Erkennungsraten-Inf oinnations-Speicher , in dem 
Erkennungsraten- Information gespeichert ist, mit der fur 
die Merkmalsvektoren abhangig von dem Inf ormationsgehalt 
der Merkmalsvektor-Komponenten angegeben wird, welche 
Spracherkennungsrate jeweils mit den Merkmalsvektoren 
mit den jeweils berucksichtigten Merkmalsvektor- 
Komponenten erzielbar ist, 

• einer Erkennungsraten- Inf ormations-Ermittlungseinheit 
zum Ermitteln der Erkennungsraten- Information, 

• einer Inf ormationsgehalt-Ermittlungseinheit , zum 
Ermitteln des Inf ormationsgehalts fiir Merkmalsvektor- 
Komponenten eines Merkmalsvektors in dem 
Spracherkennungssystem, 

• einer Merkmalsvektor-Komponenten-Auswahleinheit zum 
Auswahlen von Merkmalsvektor-Komponenten, die im Rahmen 
der Spracherkennung zu beriicksichtigen sind. 

6. Spracherkennungssystem gemaS Anspruch 5, 

bei dem die Spracherkennungseinheit eingerichtet ist zur 
sprecherunabhangigen Spracherkennung . 

7. Spracherkennungssystem gemaS Anspruche 5 oder 6, 
eingerichtet als ein Embedded System. 

8. Steuereinrichtung zum Steuern eines technischen Systems 
mit einem Spracherkennungssystem gemaS einem der Anspruche 5 
bis 7, 

wobei in dem elektronischen Worterbuch die zum Steuern des 
technischen Systems vorgesehenen Steuerbef ehle gespeichert 
sind. 
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9. Telekommunikationsgerat mit einer Steuereinrichtung gemafi 
Anspruch 8 . 
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Zusainmenfas sung 

Verfahr n zur rechnergestutzten Spracherkennung, 
Spracherkennungs system und Steuerelnrichtuzig zum Steuern 
5 eines technischen Systems 

Es wird fur eine ausgewahlte Spracherkennungsanwendung 
bestiinmt, welche Spracherkennungsrate erforderlich ist. Unter 
Verwendung einer gespeicherten Spracherkennungsraten- 

10 Information wird ermittelt, welcher Inf ormationsgehalt der 
Merkmalsvektor-Komponenten mindestens erforderlich ist, urn 
die Spracherkennungsrate zu gewahrleisten. Es wird die Anzahl 
der erf orderlichen Merkmalsvektor-Komponenten ermittelt, die 
erforderlich ist, um den ermittelten Inf ormationsgehalt 

15 bereitzustellen, und die Spracherkennung wird ausgefiihrt 
unter Verwendung von Merkmalsvektoren mit der ermittelten 
benotigten Anzahl von Merkmalsvektor-Komponenten. 



Signifikante Figur 4 
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Bezugszeichenliste 

100 Spracherkennungs sy s t em 

101 Analoges Sprachsignal 

102 Mikrofon 

103 Analoges auf genoitimenes Sprachsignal 

104 Vorverarbeitung 

105 Vorverarbeitetes Sprachsignal 

106 Analog- /Digitalwandler 

107 Digitales Signal 

108 Merkmalsextraktionseinheit 

109 Merkmalsvektor 

110 Rechner 

111 Eingangsschnittstelle 

112 Mikroprozessor 

113 Speicher 

114 Ausgangsschnittstelle 

115 Computerbus 

116 Tastatur 

117 Computermaus 

118 Elektrische Leitung 

119 Elektrische Leitung 
12 0 Funkverbindung 

121 Funkverbindung 
122 • Lautsprecher 
123 Aktor 

201 Erster Speicherteilbereich 

202 Zweiter Speicherteilbereich 

203 Dritter Speicherteilbereich 

204 Vierter Speicherteilbereich 

205 Fiinfter Speicherteilbereich 

206 Sechster Speicherteilbereich 

300 Blockdiagrainin 

301 Sprachsignal 

302 Segment ierungseinhei t 
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303 LDA-Matrix-Berechnungseinheit 

304 LDA-Matrix 

305 Clustereinheit 

306 Codebuch 

307 Spracherkennungseinhei t 

308 Erkennungsrate 

400 Ablauf diagramm 

401 Start 

402 Segmentieren Sprachsignal 

403 Berechnen LDA-Matrix 

404 Auswahl Anzahl Merkmalsvektor-Komponenten 

405 Clustern Merkmalsvektoren 

406 Ermitteln Erkennungsrate 

407 Priifschritt 

408 Ende 

409 Reduktion Anzahl Merkmalsvektor-Komponenten der 
Merkmalsvektoren 

500 Funktionsdiagramm 

501 Pseudoentropie 

502 Erkennungsrate 

503 Daten-Tupel 

504 Schnittlinie 

600 Ablauf diagramm 

601 Start 

602 Auswahlen Spracherkennungsanwendung 

603 Segmentierung Sprachsignal 

604 Berechnen LDA-Matrix 

605 LDA-Matrix 

606 Ermitteln erf orderliche Pseudoentropie 

607 Ermitteln Anzahl unnotiger Merkmalsvektor-Komponenten 

608 Clustering 

609 Spracherkennungsanwendungs-abhangiges Codebuch 

610 Sprecherunabhangige Spracherkennung 

611 Ende 
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